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У роботі були реалізовані два алгоритмічні підходи для моделювання кореферентних відношень 
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В статье описана разработанная система анализа кореферентньгх связей в текстах на естественном 
язьке. В работе бьли реализовань два алгоритмических  подхода для моделирования 
кореферентньгх отношений в тексте и машинного обучения системьгш определения и анализа связей 
- с применениеєм метода максимальной знтропиим и с использованием метода опорньєх векторов. 
Ключевьге слова: обработка текстов на естественном язьке, кореферентньтй анализ, 
семантический анализ 


Вступ 


Система аналізу кореферентних зв'язків у текстах була розроблена на 
кафедрі - математичної інформатики факультету кібернетики Київського 
національного університету імені Тараса Шевченка. Вона призначена для аналізу 
англомовних текстів. Її основною задачею є визначення всіх сутностей тексту та 
встановлення для кожної групи іменника тексту на яку саме сутність даний 
іменник посилається. Зазначимо, що дана задача повністю розв'язується лише на 
рівні семантичного аналізу. 
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Основна складність кореферентного аналізу випливає із фундаментальної 
проблеми мовної полісемії. З одного боку, одну 1 ту саму сутність у тексті можна 
виразити багатьма різними способами, а, з іншого боку, завдяки омонімії одне й 
те саме слово у різних місцях тексту може посилатися на різні сутності. Тому 
встановлення однозначних зв'язків між іменниками та сутностями тексту є склад- 
ною проблемою, яка на сьогоднішній день є відкритою, 1 розв'язання якої вимагає 
значних зусиль по створенню потужних систем семантичного аналізу природної 
мови на основі великих онтологічних баз знань. Кореферентний аналіз включає у 
себе також таку складну та фундаментальну для комп'ютерної лінгвістики задачу, 
як розв'язання займенникової анафори. Як і для будь-якого іншого іменника, для 
займенників у тексті також треба знайти їх антецеденти (іменники, на які вони 
посилаються) і вказати для них відповідні їм сутності тексту. 

Побудована система кореферентного аналізу реалізована із застосуванням 
таких потужних підходів машинного навчання як метод максимальної ентропії та 
метод опорних векторів. Дані методи добре зарекомендували себе, зокрема, у 
комп'ютерній лінгвістиці, як точні методи обчислення розв'язку для 
різноманітних задач класифікації. Розроблені моделі кореферентних зв'язків у 
текстах природною мовою дозволили системі отримати показники точності 
аналізу, що на стандартних тестових корпусах переважають відомі найкращі 
світові аналоги. 


Архітектура системи 


Структурно система представляє собою послідовність блоків аналізу текстів, 
кожен з яких послідовно здійснює аналіз тексту. Речення тексту обробляються 
послідовно. На першому етапі роботи система за допомогою блоку 
морфологічного аналізу виконує лексико-морфологічний аналіз речення та 
визначає для кожного слова його нормальну форму та морфологічні 
характеристики (частина мови, рід, число, відмінок, час і т.д.). Наступним етапом 
аналізу є синтаксичний аналіз, який виконується блоком синтаксичного аналізу, 
що за даними попереднього етапу обробки вибудовує дерево підпорядкування 
(Ферепдепсу їгее) речення. Далі дані передаються на блок кореферентного аналізу, 
що розв'язує наступну задачу: 

Дано: текст англійською мовою, що пройшов етапи лексико-морфологічного 
та синтаксичного аналізу. 

Знайти: обчислити список сутностей БІ, Б», Ез,..., Е,, що згадуються у тексті. 
Для кожної групи іменника МР; вказати таку сутність Бу, на яку МР; посилається. 

Задача блоку кореферентного аналізу полягає у побудові розбиття - треба 
розбити множину МР на класи Е. Елементи множини МР мають набір 
властивостей - морфологічних, синтаксичних та семантичних. Система має 
виконати кластеризацію множини іменників у тексті, застосовуючи принципи 
відповідності семантичного, синтаксичного та морфологічного рівня. У процесі 
роботи блоку кореферентного аналізу поточний МР; має бути зарахований до 
одного з відомих класів сутностей тексту Б/., Б», Ез,..., Бк., якщо буде мати місце 
відповідність з елементами відповідного класу, або для поточного МР; буде 
заведено новий клас сутності тексту Ек у тому випадку, якщо відповідності немає 
- тобто сутність нова і вище по тексту не згадувалася. Задача визначення класу Ну 
для МР; розв'язується наступним чином. 
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МР; розглядається як анафора, для якої потрібно знайти антецедент у 
попередніх реченнях тексту. Якщо дана задача буде виконана, то можна 
зарахувати МР; до класу Ек, до якого належить відповідний МР; антецедент. 

Для розв'язання даної задачі використовується ряд фільтрів для значного 
зменшення кількості класів-кандидатів Е. Фільтри першого рівня - морфологічні. 
Вони передбачають відповідність  анафори та  антецеденту за такими 
характеристиками як рід, число 1 т.д. Якщо у деяких кандидатів у антецеденти має 
місце невідповідність, то їх можна відразу відкинути разом з їх класами сутностей 
Е. Фільтри другого рівня - синтаксичні. Вони містять набір правил синтаксичної 
відповідності анафори та антецеденту, такі як синтаксичний паралелізм, 
несумісність анафори та антецеденту як аргументів одного дієслова |і т.д. 
Використовуючи синтаксичні фільтри, також можливо відчутно скоротити 
кількість кандидатів у антецеденти та відповідні класи-кандидати Е. Фільтри 
третього рівня - семантичні. Вони представляють собою процедури перевірки на 
семантичну відповідність іменника МР; та іменників, що належать класам 
сутностей Е. Якщо вони належать до різних семантичних класів, то відповідні 
класи-кандидати Е відкидаються. Процедури перевірки побудовані на основі 
лексико-семантичної бази М огаМеє |1| із застосуванням алгоритмів обчислення 
міри семантичної близькості між словами |2. 

Після застосування різнорівневих фільтрів залишається незначна кількість 
кандидатів у антецеденти і, відповідно, незначна кількість класів-кандидатів Н. 
Далі блок кореферентного аналізу виконує задачу класифікації МР; серед класів 
сутностей Е, що не були відкинуті в процесі фільтрації, із застосуванням моделі 
максимальної ентропії |3| та методу опорних векторів (4|. Для цих методів окремо 
були сформовані вектори ознак для МР; та кандидатів-антецедентів. Ці вектори 
ознак містили семантичну, синтаксичну та морфологічну складові. Окремо для 
кожного методу розв'язувалася оптимізаційна задача підбору найкращого набору 
ознак для векторів, який би відповідав максимальним оцінкам точності роботи 
блоку кореферентного аналізу на тестових корпусах. 


Модель максимальної ентропії 


Основа ідея, закладена в метод Максимальної Ентропії, полягає у тому, що 
використовуються лише наявні дані і не створюється жодних припущень щодо 
розподілення ймовірностей над даними, які не є присутніми в системі. Дана 
модель відноситься до класу умовних або дискримінантних імовірнісних моделей, 
що є найбільш широко застосовуваним у вирішенні задач з комп'ютерної 
лінгвістики, розпізнання мовлення та у машинному навчанні взагалі. 

Основними перевагами моделі є: 

е висока точність; 

е дозволяє легко працювати з лінгвістично важливими ознаками 
(властивостями); 

е дозволяє будувати мовнонезалежні моделі для вирішення різних 
задач комп'ютерної лінгвістики. 

Дискримінативні моделі вираховують імовірності Р(с|4) прихованих 
структур, спираючись на вхідні навчальні дані без передобробки, тобто 
моделюється лише умовна ймовірність класів. 
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Ознаки. Ознака Ї - елементарна частина певної ознаки, що пов'язує дані 4, які ми 
розглядаємо, з категорією С, яку ми передбачаємо для цих даних. Модель 
визначає вагу кожної ознаки наступним чином: 

-. позитивну вагу, якщо ознака ймовірно вірна; 

о негативну вагу, якщо ознака ймовірно невірна. 

У проекті використовувалися булеві значення ознак (уе5/по), як це прийнято в 
комп'ютерній лінгвістиці. Кожна ознака «обирає» підмножину даних 1 пропонує 
для неї мітку. 

На етапі класифікації система виконує наступні дії: 

1. Обирається лінійна функція з набору ознак 15) в класи ІС). 

2. Встановлюються ваги 2, для кожної ознаки Б. 

3. Кожні дані 4, що представляють собою певні МР, перевіряються на 

належність до кожного з класів С. 
4. Для кожної пари (с,д4) ознаки голосують з урахуванням своїх ваг: уоїе (с) - 
УмМб(о, ). 

5. Обирається той клас, що максимізує 5 М.Б(с, Д). 

Сама модель Максимальної Ентропії (МахНпі) не є новою, проте 
застосування її до задачі вирішення кореференцій є досить нестандартним 1 
потребувало розробки нових ідей. Основна проблема лежить у тому, що МахНпі 
створювався 1 зараз використовується як класифікатор, тобто він здатен розділити 
на класи подану на вхід множину слів або документів. На перший погляд 
здається, що цього достатньо: необхідно прийняти як класи сутності Е, а як 
елементи - групи іменника МР. Проте, це рішення вдало підходить для даної 
задачі лише на перший погляд: потенціальна кількість таких класів у нас є 
нескінченою, 1, навіть, якщо ми зможемо якось обійти дане обмеження і створити 
набори ознак для кожного з класів, залишиться проблема навчання. Система буде 
здатна розпізнати і зібрати як класи лише ті сутності Е, що були присутні в 
навчальному корпусі, і пропустить всі, що є новими для неї. Природно, що така 
ситуація не є прийнятною і потребує нових підходів для вирішення. 

Основною ідеєю, застосованою в рамках реалізації адаптованої до задачі 
моделі максимальної ентропії, є пропозиція як класи розглядати лише два класи, 
один умовно можна назвати «Кореферентні», інший - «Некореферентні». Як 
елементи треба використовувати не самі МР, а їх пари. Використовуючи дану 
ідею, класифікатор ділить усі вхідні дані на два класи (що дає суттєвий виграш у 
швидкості, порівняно з моделлю мультикласифікації) і, що набагато важливіше, 
достатньо побудувати досить обмежений набір ознак, необхідних для запуску 
класифікатора. Фактично, для початку роботи класифікатора достатньо мати одну 
булеву ознаку, позитивне значення якої трактується як належність до класу 
«Кореферентні», а негативне - до класу «Некореферентні». 

Навчання та тестування проводилося на основі корпусів розмічених текстів 
Опіопоїез (51. У текстах корпусу вручну проставлені мітки кореферентних зв'язків 
між ХР. На основі текстів корпусу була отримана навчальна вибірка потрібного 
об'єму та вмісту. У результаті експериментів було підібрано оптимальний набір 
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ознак для векторів МР, що відповідає найкращим показникам точності роботи 
блоку визначення кореферентних зв'язків між МР. 


Метод опорних векторів 


Основна ідея методу опорних векторів (5УМ) - перетворення вхідних 
векторів у простір більш високої розмірності, де є висока ймовірність, що дані 
будуть лінійно-роздільними, та пошук роздільної гіперплощини з максимальним 
зазором у цьому просторі. У випадку задачі знаходження кореферентних 
відношень вхідні вектори формуються у вигляді прикладів відповідно до обраної 
моделі представлення (пари МР, кластер-МР, ранжування МР чи кластерне 
ранжування) та складаються з виділених ознак. Дві паралельні гіперплощини 
будуються по обидві сторони гіперплощини, яка розділяє дані класи. Роздільною 
гіперплощиною буде гіперплощина, яка максимізує відстань до двох паралельних 
гіперплощин. При шцьому таку  гіперплощину називають оптимальною 
гіперплощиною, а точки даних, які лежать ближче всього до цієї гіперплощини, 
називаються опорними векторами. Алгоритм працює таким чином, що чим 
більша відстань буде між паралельними гіперплощинами, тим менша середня 
помилка класифікатора. 

Класифікація на основі 5УМ полягає в наступному: 

1) Вхідні вектори подаються на вхід 5УМ у вигляді прикладів відповідно до 
обраної моделі представлення та складаються з виділених ознак. 

2) Бажані значення а; (вчитель) - це значення, що характеризують 
кореферентність: 0 або 1 (або значення рангу, якщо використовується у 
моделях ранжування КР та кластерного ранжування). 

3) Навчання  5УМ базується | на розв'язанні (д задачі 4 квадратичного 
програмування з використанням методу множників Лагранжа. 

4) Для випадку лінійної нероздільності у цільову функцію замість скалярних 
добутків вводиться нелінійна функція ядра. 

У результаті навчання З5УМ отримуємо оптимальний вектор вагових 
коефіцієнтів, що визначає перпендикуляр до роздільної гіперплощини та 
оптимальне значення порогу. Знайдені параметри підставляються у рівняння 
гіперплощини для нових точок, таким чином здійснюється класифікація. Як 
програмна реалізація методу опорних векторів був використаний програмний 
пакет ЗУМ-ПеБі. 


Експерименти 


Для навчання та тестування були використані корпуси розмічених текстів 
Опіопоїез. А саме, Ма! 5їгеей ота! Согр., Мем/зулге, Вгоадсазі Мемуз, М/еб (ехі. 
Навчання та подальше тестування проводилося по методу Сто85 УМаПпдайоп, згідно 
з якими весь корпус ділиться на М частин, система навчається на М-1 частинах 
корпусу, а тестування проводиться на одній частині, на якій не проходило 
навчання. Потім обирається інша наступна одна тестова частина корпусу Із 
зсувом на одну позицію вліво, навчання системи відбувається на решті корпусу, а 
тестування на новообраній частині. Так циклічно відбувається М сесій навчання- 
тестування, під час якого тестова частина проходить через весь корпус 1 кожна з М 
частин даних використовується для тестування. У результаті отримаємо оцінку 
ефективності моделі з найбільш рівномірним використанням наявних даних. Із 
отриманих М оцінок точності можна фіксувати мінімальні значення, та розглядати 
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їх як гарантовані оцінки точності роботи системи. Під час тестування 
обчислювалися точність роботи системи кореферентного аналізу (Р, ргесізіоп), 
повнота (В, гесаї) та інтегрована оцінка Е: 

кількість правильно визначених зв'язків 


Ра 5 
число усіх знайдених кореферентних зв'язків 
о кількість правильно визначених зв'язків 
7 . Й » 
число усіх кореферентних зв'язків тексту 
2РК 
Е и 


Рак 

Отримані в результаті оцінки можна побачити у таблиці 1. Для порівняння у 
таблиці 1 в третьому стовпчику надано оцінки роботи системи кореферентного 
аналізу, розробленої у Стенфордському університеті (Зіапіогі Реїегтіпізіїс 
Согеїегепсе ВезоГийоп Зузіет) |6). Дана програма, на сьогоднішній день, є одним 
з найкращих світових аналогів побудованої системи кореферентного аналізу 
текстів. 


Таблиця 1. Оцінки роботи системи кореферентного аналізу текстів 


Метод Метод Зтапіога Пеїегпіпізііс 
максимальної опорних Согеїегепсе Кезоїийоп Зузіет 
ентропії векторів 
Р (точність) 79.64 85.00 62.4 
К (повнота) 84.34 86.00 зд 
Е 81.39 85.49 60.8 


Як можна побачити, оцінки системи кореферентного аналізу, отримані під 
час експериментів переважають показники Стенфордської системи. Особливо 
високими виявилися оцінки у блока, реалізованого на основі моделі опорних 
векторів (ЗУМ). Проте, слід відмітити, що навчання даного блоку вимагає 
набагато більше часу порівняно з моделлю максимальної ентропії. 


Висновки 


У роботі представлено | опис нової розробленої системи аналізу 
кореферентних зв'язків у текстах природною мовою. Була запропонована 
оригінальна архітектура системи, яка суміщає різні рівні лінгвістичного аналізу 
тексту, послідовну семантичну, синтаксичну, морфологічну фільтрацію, що 
значно скорочує кількість варіантів при визначенні зв'язків типу група іменника- 
сутність та блоки ідентифікації та аналізу кореферентних зв'язків, реалізовані із 
застосуванням двох основних підходів до машинного навчання - моделі 
максимальної ентропії та методу опорних векторів. Експерименти з розміченими 
текстовими корпусами показали високу точність роботи системи кореферентного 
аналізу на рівні кращих світових аналогів. 
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ВЕ5СМЕ 


О.О. МагсрпепКко 
Уубкет їог Согеїегепсе Апаїузіз ої Хакига! І апоцаєє Техія 


Тре рарег рге5епі5 Ше дебсгіріїоп ої а пеуу демеїорей 5уз5іеті Їог согеїегепсе 
апаЇуз5і5 ої пагига! Іапецаєє іехі8. Те ргобіет ої согеїегепсе апаіу5і5 ої пакигта! 
Іаприаєе їехіз 15 опе ої Пе сіазбіса! апа Гипдатепіа! казКк8 ої сопаршайопа! Ппеці8іїс8. 
Тре согеїегепсе апаїузі8 ої паїига! Іаприаєе їехіє соп5і5ї5 їп дебпійоп ог аї епіїйез 
Рог 5оте іприс пагига! Іапоцаєе їехі апа 50Їуїпє Ме ргобіет ої бпдїпє согтесі 
соггезропдїпе епіку бог сасп пошп ріга5е ої Ше їехі. П 5роцід Бе поїеа їБас Ре 
ргобіета ої согеїегепсе апаїузіз сап Бе сотіріетеіу 50Їуед опіу оп Ше 5еплапіїс Ісуе! ої 
пагита! Іапоцаре їехі 5(гисішге ур арріуштеє зресіа! 5епапіїс апаЇузі5 аїєогіїйтя оп 
їБе Ба5е ої опіоіовіса! кпом/едре Ба5евз. 

Тре рарег Фезсгібеє ап огібіпа! зузіега агспікесіаге ууУрбісб сопіаїп5 плийшеує! 
Ппошбіс апаЇузія ої їехі, зиссе85туе 5еплапіїс, 5упіасіїс, плогрпоіобісаї бІПегіпе, Ша 
єгеайу гедисез їбе пигарег ої оріопя іп декегтіпіпе геіайопябір5 5исі а5 "Мошп - 
Епібу" апа 5иб5узієтя Бог ічепіїйсайоп апа апаЇузіз ої согеїегепсе геіайопя бай ууеге 
ітріетепіеа бу иц5іпе бмо та)ог арргоаспез їо пасріпе Ісагпіпе, - паахітит епітору 
апд 5иррогі уесіог пасПіпез. 

Ехрегітепів м/п Кехі согрога 5ромед Бієп ассигасу ої согеїегепсе апаїузі8. 
Зиррогі уесіог пласріпе депіоп5ігаїев Бієрег езіітаїез ої ргесізіоп, гесаї! апа 
ассогдіпеЇу Е-паеазиге їБап ре плахітит епігору пеїродй уаїцез. Номеуег, 18 5поцід 
Бе поїеа Бас Фе гаїпіпеє ої Фе 5иррогі уесіог тасріпе теїодй гедшітез а плиср Іопдег 
йте Шап Фе пахітит епігору тодйеі. 

Тре зузіет е5ітаїез оуегсоте Пе Бебі м/огід апаїобіе8. 


О.О. Марченко 
Система аналізу кореферентних зв'язків у текстах 


У роботі представлено опис нової розробленої системи аналізу 
кореферентних зв'язків у текстах природною мовою. Аналіз кореферентних 
зв'язків у текстах природною мовою є одною з класичних та фундаментальних 
задач комп'ютерної лінгвістики. Кореферентний аналіз природномовного тексту 
полягає у визначенні всіх сутностей вхідного тексту та у розв'язанні задачі 
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знайдення коректної відповідної сутності для кожної групи іменника у тексті. 
Слід відзначити що задача кореферентного аналізу може бути повністю 
розв'язана лише на семантичному рівні структури тексту із застосуванням 
спеціальних алгоритмів семантичного аналізу на основі онтологічних баз знань. 
Стаття описує оригінальну архітектуру системи, яка суміщає різні рівні 
лінгвістичного аналізу тексту, послідовну семантичну, синтаксичну, 
морфологічну фільтрацію, що значно скорочує кількість варіантів при визначенні 
зв'язків типу група іменника-сутність та блоки ідентифікації та аналізу 
кореферентних зв'язків, реалізовані із застосуванням двох основних підходів до 
машинного навчання - моделі максимальної ентропії та методу опорних векторів. 
Експерименти з розміченими текстовими корпусами показали високу 
точність роботи системи кореферентного аналізу. Метод опорних векторів 
демонструє вищі оцінки точності, повноти та, відповідно, Е-міри, ніж метод 
максимальної ентропії. Але слід відзначити, що навчання методу опорних 
векторів вимагає набагато більше часу, ніж у моделі максимальної ентропії. 


Показники роботи системи на рівні кращих світових аналогів. 
Надійшла до редакції 28.08.2015. 
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